全拿下！清华开源首个基于Transformer的多模态模型！

小白学视觉 2023-09-19

Transformer 如今已经成为主流，为各种任务创造了 SOTA 结果，它是一种新型的神经网络架构，用于处理多种感知模态数据（如图像、文本、音频等），比如机器翻译和文本生成。

9.14-9.15日我们邀请到哈工大博士李老师为大家直播分享——基于Transformer的视觉语言新SOTA，为大家解决Transformer基础模型原理、难点痛点以及Vision transformer的变式等问题！

扫码预约直播（附老师授课PPT)

免费领100篇多模态顶会论文！

部分授课ppt页面及论文展示

导师简介

-哈工大计算机博士

-共发表7篇SCI国际期刊和EI会议论文

-专业领域：人工智能、机器学习、深度学习、多模态表征学习和脉冲神经网络等

-担任国际顶级会议 AAAI, NeurIPS，期刊 IEEE TCSVT 的常任审稿人

直播大纲

第一天—Vision Transformer的前世今生

①Transformer基础模型原理

②Transformer难点痛点

③Vision transformer的变式

第二天—多模态Transformer的七十二变 ①Transformer用于多模态的背景及优势②多模态Transformer的各种变式及原因

扫码预约直播（附老师授课PPT)

免费领100篇多模态顶会论文！

（文末有福利）

多模态Transformer的特点是能够同时考虑输入序列中所有位置的信息，并且具有非常好的并行化性能。它使用了自注意力机制进行序列建模的神经网络架构，也采用了残差连接和层归一化等技术，以加快模型收敛速度和提高模型的泛化能力。

前段时间，清华团队提出了一个为多模态设计的概率建模框架 UniDiffuser，并采用该团队提出的基于 transformer 的网络架构 U-ViT，在开源的大规模图文数据集 LAION-5B 上训练了一个十亿参数量的模型，使得一个底层模型能够高质量地完成多种生成任务。

多模态Transformer的基本原理

输入编码

首先，每种感知模态的数据都会经过独立的编码层进行表示学习。对于文本数据，通常使用词嵌入技术将单词映射为向量表示。对于图像数据，可以使用卷积神经网络（CNN）提取特征。对于音频数据，可以使用卷积神经网络或者音频处理技术提取特征。

模态融合

经过编码的不同模态数据会被融合在一起，以便进行联合表示。常用的融合方式是使用注意力机制，通过计算模态间的相互注意力权重来自适应地融合不同模态的信息。这样可以使模型更好地关注重要的模态信息。

位置编码

和经典的Transformer一样，位置编码用于为模型提供序列中每个元素的位置信息。这样可以帮助模型理解输入数据中的顺序关系。

Transformer层

多模态Transformer通常由多个Transformer层组成。每个Transformer层由多头自注意力机制和前馈神经网络组成。自注意力机制能够捕捉输入序列中元素之间的关系，而前馈神经网络能够对每个元素进行非线性变换和映射。

输出解码

最后一个Transformer层的输出将被传递给输出解码层，以生成模型的最终输出。输出解码层的具体形式取决于所解决的任务，可以是分类、生成、检测等。

扫码预约直播（附老师授课PPT)

免费领100篇多模态顶会论文！

（文末有福利）

部分授课ppt页面及论文展示

全民积极向(内)上(卷)的时代，江湖常有传言：SCI在手，升职加薪、前程无忧。

发论文的门槛，说高不高，说低不低。不管你是科研经验丰富的研二研三学生还是研0小白都可以发论文的。有时候限制你发论文的，不是写作技巧、不是实验，往往是最初但是最重要的idea。

对于想要发表论文，对科研感兴趣或正在为科研做准备的同学，想要快速发论文有两点至关重要！

1.紧跟风口。

想发文章最容易的方法就是紧跟风口，顺着领域内的研究趋势确定自己的方向，毕竟在热门领域内，创新点和idea远比其他非热门领域多。

2.有一位有经验有能力的前辈指导

大家都在努力的设计新网络、新策略、新training算法，只要能够在某一问题上做到一个很好的performance，论文就水到渠成。而想要快速达到，来自前辈的指点不可或缺。

所以，要解决的问题就是

1.找到风口

2.找到领域内的大神做导师

扫描二维码

与大牛导师1v1meeting

（文末有福利）

扫码预约直播（附老师授课PPT)

免费领100篇多模态顶会论文！

（文末有福利）

✦

文末福利

作为日常为了论文而忙碌的科研人，小编知道大家一定很需要一些资料。因此，小编精心整理了一份Transformer论文&代码合集！包含最新顶会论文、书籍等资料，以及英文论文写作指导保姆级资料，从文献阅读到论文写作，全部免费帮你整理好~

扫码免费领课程资料-END-

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

阿哲点名爆瓜抖音好友！VIc上线喊话！夏可可被扒抵押资产！

全拿下！清华开源首个基于Transformer的多模态模型！

您可能也对以下帖子感兴趣

常德悲剧：让谴责无差别杀戮之声更加响亮一点

魏加宁：日本之所以能走出“大衰退”，靠的是不断改革，而不是所谓“积极的财政政策”

国内突然宣布，将大规模调整经济布局！又一朝阳行业悄然崛起，新一轮机会出现了！

泪目！8死17伤！江苏一职校持刀伤人案，背后隐情令人心惊！

阿哲点名爆瓜抖音好友！VIc上线喊话！夏可可被扒抵押资产！

生成图片，分享到微信朋友圈

全拿下！清华开源首个基于Transformer的多模态模型！

您可能也对以下帖子感兴趣